iT邦幫忙

2023 iThome 鐵人賽

DAY 5
0
AI & Data

AI與語音辨識系列 第 5

DAY5 入門認識語音辨識part4

  • 分享至 

  • xImage
  •  

早安昂~


點對點語音辨識工具套件

因為點對點語音辨識的發展,目前有非常多基於TensorFlor或者Python等深度學習的語音辨識工具套件,今天先簡易的介紹以下兩種:

  1. ESPNet:這是以點對點語音辨識和語音合成方法為主的工具套件,支持兩個深度學習框架:PyTorch及Chainer,因為是和Kaldi(昨天又說喔)同一個實驗室誕生的,所以有很多功能都依循Kaldi,如資料處理、特徵提取等,但他還支援語音增強、風格轉換、語音翻譯及口語理解等強大功能。

  2. SpeechBrain:這個是深度學習的三巨頭之一,是由很多科技公司共同發布的原始碼語音工具套件,其中包括Samsung、PyTorch、Dolby等等等很多很大間的公司,主要特點包括提供預訓練模型、基於YAML的超參設定、多GPU處理,及訓練PyTorch分散式data-parallel(資料平行)推理。

TensorFlow是由Google開發的開源機器學習框架,用於訓練和部署深度學習模型。它支援跨平台、多種硬體,並具靈活性。TensorFlow廣泛應用於圖像處理、語音辨識、自然語言處理等領域,並具有強大的社區支援、自動微分功能,以及相關工具和庫,如Keras和TensorBoard。)
Data parallelism(資料平行)是一種並行計算的方法,其中多個處理單元同時處理不同的數據。在資料平行計算中,訓練數據被分成多個批次(batches),每個批次都在不同的處理單元上進行處理,通常使用相同的模型參數。這樣可以同時處理多個數據批次,從而提高訓練速度。當訓練過程中需要大量數據時,資料平行計算尤為有用,因為它能夠充分利用多核CPU或多個GPU的計算能力。


參考書籍:Hey Siri及Ok Google原理:AI語音辨識專案真應用開發
參考網站:今日無
學習對象:ChatGPT


上一篇
DAY4 入門認識語音辨識part3
下一篇
DAY6 入門認識語音辨識part5(入門最後一篇)
系列文
AI與語音辨識30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言